【AI筆記】30天從論文入門到 Pytorch 實戰：如何重現開源AI模型訓練 Day 16

2024 iThome 鐵人賽

DAY 17

AI/ ML & Data

【AI筆記】30天從論文入門到 Pytorch 實戰系列第 17 篇

16th鐵人賽

fan84sunny

2024-08-19 00:01:45

90 瀏覽

分享至

Code Note 有更簡單的介紹整體架構和模型運行，但沒有實際的Dataset執行方法，只有Demo幾張資料圖片。

流程

前幾日有提到如何使用github，建立好新環境，可以把之前提供的網址 git clone 下來

建立/啟動環境

$ conda activate adapter

Git Clone 網址，因為我使用的是這個版本，如果clone其他版本目前不會教到。

$ git clone https://github.com/fan84sunny/T2I-Adapter

確認環境

詳細安裝請看: https://github.com/fan84sunny/T2I-Adapter

🔧 Dependencies and Installation
Python >= 3.6 (Recommend to use Anaconda or Miniconda)
PyTorch >= 1.4

$ pip install -r requirements.txt

如果你不想訓練，只想要使用，請額外下載權重，把模型放在 T2I-Adapter/models 資料夾
您可以從 https://huggingface.co/TencentARC/T2I-Adapter 找到預先訓練的T2I-Adapters

不想訓練: 可以跳過準備 Dataset 的步驟

Training

遇到的問題

因為不是每個人都有多GPU，所以要改code。

多GPU改為1 gpu遇到的問題:

1. 多gpu改過code了 有新增os.environ[’RANK’]=str(0), 然後[dist_utils.py] init_dist_ 註解掉一行了# dist.init_process_group(backend=backend, **kwargs)
2. self.log_var 在GPU 但t在CPU 所以code改成丟在GPU

ATTEN 問題
[attention.py]
[ldm/modules/diffusionmodules/model.py]
我改了CrossAttention, CrossAttentionWrap
別用EfficientCrossAttention的function，會跳問題必須安裝xformer 但xformer 一裝上去環境就GG了

class CrossAttentionWrapper(CrossAttention):
    def forward(self, x, context=None, mask=None):
        b, c, h, w = x.shape
        x = rearrange(x, 'b c h w -> b (h w) c')
        out = super().forward(x, context=context, mask=mask)
        x = rearrange(x, 'b (h w) c-> b c h w', h=h, w=w, c=c)
        out = rearrange(out, 'b (h w) c -> b c h w', h=h, w=w, c=c)
        return x + out

有時候Nvidia壞掉報錯內容怪怪的，通常是RuntimeError: CUDA out of memory. ...
可能沒有改到GPU限制使用在哪顆GPU上面，導致GPU塞滿了，我的code裡面可能會限制在哪個GPU運行，要看一下

RuntimeError: NVML_SUCCESS == DriverAPI::get()->nvmlInit_v2() INTERNAL ASSERT FAILED

Start Training

在跑之前進去改py的路徑，改成你下載的資料集的路徑位址。

$ CUDA_VISIBLE_DEVICES='你自己想要的GPU' python train_skectch.py
$ CUDA_VISIBLE_DEVICES='你自己想要的GPU' python train_seg.py

如果是Pycharm：

打開你要執行的那個檔案，點右鍵 有個 `Run/Debug Configurations` -> `modify run configuration`  ->在 Environment variables 新增 CUDA_VISIBLE_DEVICES='你自己想要的GPU'

訓練好的權重會放在

/home/[user]/T2I-Adapter/experiments/train_sketch_archived_

注意

這篇文章已經涵蓋了大部分設置和運行 T2I-Adapter 專案的關鍵步驟，但我還有一些補充建議：

環境管理：確保你的 Conda 環境跟 T2I-Adapter 要求一致來避免潛在的兼容性問題。
依賴版本：在安裝依賴項時，注意版本號。某些依賴項可能需要特定版本才能正常運行。如果遇到問題，可以嘗試安裝指定版本的依賴項。
GPU 設置：如果你有多個 GPU，可以使用 nvidia-smi 命令來查看每個 GPU 的使用情況，並選擇一個空閒的 GPU 來運行你的訓練任務。
錯誤處理：在遇到 CUDA out of memory 錯誤時，可以嘗試減小 batch size 或者使用 gradient accumulation 來減少每次訓練步驟的 Mem 佔用。
社區支持：如果在設置或運行過程中遇到問題，可以查看 GitHub 專案的 Issues 頁面，或者在相關的論壇和社區中尋求幫助。